一、背景记忆模块离不开上下文,通常会是在某个Agent场景(namespace)、某个会话、某个用户的Agent交互信息,Agent的复杂,体现在通过上下文信息理解用户、以及懂用户的复杂,主要体现在:推理复杂性 Agent的上下文交互,通过记忆存储,能够分析准确性(不一定要feedback通过点赞、点踩方式,相似的问题用户问了2次证明第一次处理没有准确),通过分析与强化学习、让Agent越来越聪明。 把上下文进行记忆存储,进行后期用户画像沉淀、准确度或体验提升很关键。 = StoreItem.of(namespace, userKey, profileData); store.putItem(userItem); // 通过ID获取记忆 ("my-key", "my-value")); // System.out.println(items); // ================== 通过工具读取记忆
今天 AI 记忆系统又进了一步:Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力 最近一波关于 AI Agent 记忆系统的更新,很值得放在一起看。 Engram:把“摄入一次、低成本回忆很多次”做成现实 Engram Memory SDK 是一款面向智能体的开源图记忆开发库,核心思路非常直接: 在摄入阶段调用一次大模型,把实体与关系抽出来;之后回忆阶段不再依赖大模型 这套规则其实非常像一个成熟工程团队的知识管理原则: •主索引只放导航,不放正文 •主题信息按模块拆开 •原始记录保留,但只在需要时检索 •旧知识不是“资产”,很多时候反而是风险 更有意思的是它的 autoDream 记忆系统正在从“外挂检索”走向“原生架构” 过去的做法,常常是先有 Agent,再额外挂一个 RAG 或向量库。 现在的变化是:记忆已经不再是附加模块,而是开始进入系统设计的一开始。 Claude Code 直接把记忆写进工作流纪律,EdgeClaw 把记忆做成多级组件,Engram 则把记忆抽象成开发基础设施。 2.
论文提出了一个叫 Engram 的条件记忆模块:把经典 N-gram 做成现代化的 O(1) 查表记忆外挂,用确定性哈希在巨大表里秒级定位向量,再通过门控把“记忆向量”注入 Transformer 主干 在论文框架中,Engram 是一个可即插即用的模块: 基于局部上下文提取 N-gram 特征 通过 确定性的哈希 直接映射到巨大表(无需 MoE 路由网络) 以 O(1) 复杂度查到向量 再用门控把向量融合进 Engram 类模块:把高频局部静态模式“内嵌式注入”,把推理从“读文档”中解放出来。 3)模型生态:大模型主干会更像“CPU”,外挂更像“PCIe 插卡” 一旦记忆外挂成立,“模型主干”的角色会更清晰:负责推理、泛化、策略; 而“外挂模块”负责:记忆、工具、规则、领域知识、甚至合规策略。 这就是 Engram 的长期主义: 它没有用更贵的算力去压缩问题,而是用更朴素的结构把问题拆开——让“计算”去做计算,让“记忆”去做记忆。
这一思路的核心,就是给大模型做“分工”:把静态知识的存储和检索,交给专门的“记忆模块”;让核心的 Transformer 架构,专注于动态推理。 而 Engram 模块,就是“条件记忆”思路的落地实现——高效、可扩展的“AI专属档案库”。 二、Engram的“档案库”如何高效工作 Engram不是替换现有大模型的核心架构,而是作为一个新增模块融入其中,核心工作流程只有两步:检索(从档案库找资料)和融合(把资料精准用到当前任务)。 这些问题恰好指明了未来Engram 迭代的方向:增强动态更新能力、提升抗噪性和实现模块化设计,以推动其从实验室走向更复杂的产业应用。 结合 DeepSeek 年初发布的 mHC(流形约束超连接)框架,下一代模型的架构轮廓已呼之欲出了:融合 mHC 优化专家间通信效率,引入 Engram 作为独立记忆模块,形成“动态计算+静态检索”的协同模式
没有发布会,没有营销话术,只有一篇论文和一个新模块的源码——Engram。更耐人寻味的是,这篇论文的作者列表中,再次出现了 梁文锋 的名字。 二、Engram 在做什么?一句话:该查的,别算“Engram” 是神经科学中的术语,意为 记忆痕迹。在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。 MoE 的稀疏性,是:条件计算只激活少量专家网络Engram 的稀疏性,是:条件查找只命中极少量记忆条目两者解决的是不同问题。 可以这样理解:模块在干什么Engram快速回忆“我以前见过什么”MoE / Transformer认真思考“现在该怎么推理”在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络 如果说 V2 / V3 的关键词是 MoE 扩展效率, 那么 Engram 暗示的,是下一阶段的主题:记忆与推理的结构性分离。
Engram的思路是:在Transformer之外,给模型加一个独立的"记忆模块",通过高效的查找机制直接定位到需要的知识。Engram的底层是对经典N-gram模型的现代化改造。 DeepSeek把N-gram的嵌入向量(Embedding)升级为可训练的条件记忆模块,让它在保留O(1)查找效率的同时,获得了对语义信息的编码能力。 展开代码语言:PythonAI代码解释importtorchimporttorch.nnasnnclassEngramConditionalMemory(nn.Module):"""Engram条件记忆模块 3.研究Engram开源代码DeepSeek已经在GitHub上开源了Engram模块的代码。对于有定制化需求的开发者,可以提前研究Engram的接口设计,考虑如何把它集成到自己的模型中。 )#-评估脚本(了解benchmark性能)Engram的代码仓库结构清晰,模块化程度高。
其核心创新在于一套名为“双轴稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 第二章:第一引擎——Engram条件记忆:为大模型装上“海马体”2.1设计动机:为什么需要一个独立的记忆模块?在传统模型中,所有知识都内化于神经网络的权重之中。当用户询问“巴黎是哪个国家的首都?” Engram模块旨在解决这些问题,为模型提供一个外部的、可即时访问的“活字典”。 哈希查找:Engram模块使用查询向量,在LSH索引中进行近似最近邻(ApproximateNearestNeighbor,ANN)搜索。由于哈希结构的特性,这个过程的时间复杂度接近O(1)。 Engram触发:上下文中的关键实体和短语会触发Engram模块,从其外部知识库中检索相关事实,并将这些事实作为“增强上下文”注入。
V4的三大技术突破,分别针对当前大模型面临的三大核心挑战:幻觉魔咒(HallucinationCurse):事实性错误频发→Engram条件记忆。 第二章:第一大突破——Engram条件记忆模块:根治“幻觉”的活字典外挂2.1问题根源:为什么传统模型会“胡说八道”?传统Transformer模型将所有知识都内化于其数十亿甚至万亿的权重参数之中。 2.2Engram的设计哲学:为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体(Hippocampus),后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”,实现条件记忆(ConditionalMemory)。 哈希查找:Engram模块使用查询向量,在LSH索引中进行近似最近邻(ApproximateNearestNeighbor,ANN)搜索。
从 N-gram 到 Over-Encoding,再到 Engram,优化「记忆范式」 与模型的信息骨架并行的,是关于模型如何「记忆」的探索。 DeepSeek 的 Engram 模块,正是在 Over-Encoding 等工作的基础上,将「静态记忆增强」升级为了「动态条件记忆」。 Engram 的核心观点是,大模型的工作负载可以分为两部分: 1. 组合推理:需要消耗算力,由 MoE 等「条件计算」模块负责。 2. 只有与当前上下文相关的记忆才会被激活并融入到后续计算中,不相关的则被抑制。 3. 解耦:由于查找地址是确定性的,Engram 可以被设计为与主计算流程解耦的独立模块。 将大约 20%-25% 的稀疏参数预算从计算专家再分配给记忆模块,才能达到最佳性能。 小结 总的来说,mHC 和 Engram 体现出相似的演进路线,一种相互学习、相互启发的螺旋迭代。
第二轴:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 3.1Engram条件记忆模块:打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。 Engram模块旨在为模型提供一个外部的、可快速访问的“知识库”。 ),Engram模块的核心是一个可扩展的哈希查找表。 Engram模块会使用这个查询向量,在哈希表中进行近似最近邻(ApproximateNearestNeighbor,ANN)搜索。
窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 业内猜测,这次模型的更新,应该把之前论文提到的两项核心底层技术:mHC(流形约束超连接)与 Engram (条件记忆模块)也应用在新模型上了,只是没有公布出来。 03 — 条件记忆模块(Engram) 核心定义: Engram 是 DeepSeek 提出的“条件记忆”技术,核心目标是为大模型植入类似人类的“深层速记能力”。 2、N-gram 哈希嵌入: 使用 N-gram 切片和多头哈希映射技术,将短语存储到可扩展的静态记忆表中,实现 O(1) 的秒级检索。 Engram 关注的是“如何让模型想得更省力”,通过记忆检索解决算力浪费和显存限制。
在输入句子之后,模型一边正常算,一边做了一件“偷偷的事”:局部片段触发记忆:当模型读到输入句子的时候,它把这几个词的组合,当作一个“查询键”,去记忆库进行查询。 整体的框架流程论文中已经画出来了~如果用一句话概括:MoE解决的是“算得更聪明”(条件计算),Engram解决的是“记得更便宜”(条件记忆)。两者是互补结构。 关键发现:SparsityAllocation出现“U型规律”,MoE和Memory要配比论文中提出一个很有意思的实验设问:在固定总参数预算下,MoE专家参数与Engram记忆参数,怎么分配最好? Engram的“门控(gating)”确实学会了:只在“这是一个稳定、固定的局部模式”时才强力介入,而不是对所有token都乱用记忆。 目前DeepSeek在走极致化的“稀疏”路线:MoE:计算的稀疏化Engram:存储的稀疏化如果这条路跑通,未来可能出现一种很有代表性的架构形态:小而精的推理核心+可扩展、可更新的超大记忆库。
焦点二:核心技术——全新架构+记忆模块,多方拆解代码细节 ● 技术层面:的猜测最为密集,核心围绕“MODEL1”架构与Engram记忆模块两大方向,均源自开发者对开源代码和论文的拆解分析。 ● 记忆模块:Engram记忆模块则因1月13日曝光的论文引发热议。该论文由DeepSeek核心研发梁文锋署名,提出“查算分离”架构,让CPU负责静态知识存储,GPU专注核心推理。 开发者拆解发现,该模块通过词汇规范化、多头哈希查找、上下文门控等机制,可使词表大小减少23%,长文本任务准确率从84.2%飙升至97%,且在MMLU、CMMLU等任务中均有3-4分的性能提升。 ● 成本方面:Engram模块带来的降本效果成为核心话题。 实测数据显示,该模块可让大模型部署成本暴降90%,原本需8张A100显卡的千亿参数模型,如今1张消费级显卡加64G内存条即可运行,硬件成本从几万美金降至1200美元左右。
(如图,DeepSeek科学家团队提出的Engram架构) DeepSeek提出的Engram架构,正是这一技术的具体体现。 与Mixture of Experts(MoE)架构相结合,Engram通过条件记忆的方式,为每个模型输入提供快速的静态知识检索。 DeepSeek的研究团队在27B参数的模型上进行验证时,发现通过引入Engram模块,模型的长时效性推理和复杂推理任务的性能得到了显著提升。 如果我们将目光投向未来,DeepSeek的条件记忆技术无疑将成为AI领域的新标杆。随着条件记忆模块的进一步发展,我们有理由相信,AI技术将进入一个全新的阶段。 /blob/main/Engram_paper.pdf 2、DeepSeek开源大模型记忆模块!
二、核心技术解密:双轴稀疏架构的范式革命DeepSeek-V4 的强大并非凭空而来,其背后是两大开创性技术的支撑:Engram 条件记忆模块 和 MoE(Mixture of Experts)条件计算。 这两者共同构成了其“记忆-计算分离”的双轴稀疏架构,这是对传统大模型设计的一次根本性颠覆。1. Engram 条件记忆:给AI配一本“超级活字典”想象一下,让一个学生去参加一场开卷考试。 他不需要把所有知识都死记硬背在脑子里(参数),只需要在遇到确定性问题时,快速翻阅手边的参考书(外部记忆)即可。Engram 模块正是扮演了这本“超级活字典”的角色。 工作原理:Engram 是一个独立于模型主干参数之外的、可检索的知识库。当模型在推理过程中遇到需要精确事实(如历史日期、科学公式、法律条文等)的问题时,它会首先向 Engram 发起查询。 MoE + MHC:打造稳定高效的“专家团队”如果说 Engram 解决了“记忆”问题,那么 MoE(混合专家)架构则解决了“计算”问题。
此前大多数关于记忆的研究都是基于分析特定大脑区域的损伤是如何影响记忆的。然而,在2012年,Tonegawa 的实验室研发了一种标记 engram (记忆痕迹)细胞的方法,这种细胞包含记忆的痕迹。 研究人员标记了大脑三个区域的记忆细胞:海马体、前额叶皮层和存储记忆中情绪联系的基底外侧杏仁核。 研究人员在恐惧反应实验发生后一天,发现事件的记忆被存储在海马体和前额叶皮层的 engram 细胞中。 在这一时期结束时,海马体的 engram 细胞变得沉默,在自然回忆中不再需要。然而,记忆的痕迹仍然存在:用光还原这些细胞仍然会促使动物保持不动。 在基底外侧杏仁核中,一旦形成记忆,engram 细胞会在整个实验过程中保持不变。这些细胞,是唤起与特定记忆相关的情绪所必需的,它们会与海马体和前额叶皮层中的 engram 细胞进行通信。 现在,研究人员只能监测大约两周的 engram 细胞,但是他们正在努力使这一时间变得更长。 Kitamura 说他认为一些记忆痕迹可能会无限期地停留在海马体中,存储一些仅偶尔会被检索到的细节。
该架构包含三大核心技术支柱:Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力。它们共同作用,实现了“记忆”与“计算”的分离,从根本上解决了传统模型的效率瓶颈。 2.1Engram条件记忆:为大模型装上“活字典外挂”2.1.1设计哲学:记忆与计算分离传统Transformer模型将所有知识都编码在神经网络的权重中。 Engram模块的设计灵感来源于人类大脑——我们拥有一个专门用于快速检索长期记忆的海马体。Engram正是大模型的“海马体”。 2.1.2技术实现:O(1)级哈希查找根据DeepSeek与北京大学的合作论文,Engram模块的核心是一个可扩展的哈希查找表。 Engram模块利用这个向量,在哈希表中进行近似最近邻(ANN)搜索。闪电般检索:得益于精心设计的哈希算法,检索过程的时间复杂度接近O(1),远快于O(n²)的注意力机制。
At last, long-term stimulus information stored in memory engram cells of different cortexes. And the memory of memory engram cells ensembles by a retrograde mechanism, the formula is derived[16] The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.
核心技术突破:从计算密集转向“记忆”优化DeepSeek-V4 的核心创新在于其革命性的 Engram(条件存储)架构。该技术将大模型的“静态知识记忆”与“动态逻辑计算”进行了有效分离。 Engram 架构允许模型将庞大的知识索引表存储在成本更低的 CPU 系统内存(DRAM) 甚至 NVMe SSD 中,仅在需要时进行高效检索。 实验表明,Engram 能精准识别如“亚历山大大帝”或“四大发明”等固化语言模式,减轻 Transformer 主干的负担,为万亿级参数规模的平价扩展铺平了道路。
MODEL1 与现有的DeepSeek-V3.2(V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram 机制:条件记忆通过可扩展查找实现,解决Transformer缺乏原生查表记忆的缺陷 DSA(DeepSeek Sparse Attention)机制:实现显存效率与推理精度的双重跨越 内存优化技术 代码差异主要体现在 缓存布局优化 稀疏性处理改进 FP8解码优化 技术架构对比 特性 MODEL1 V3.2 架构类型 全新架构 现有架构 硬件支持 SM90 + SM100 主要SM90 核心创新 值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理 标准优化 性能优势 MODEL1通过引入Engram机制,实现了: O(1)查表取向量:让模型直接获取知识而非逐层计算 条件记忆机制:将20-25%参数用于记忆存储